Atribución de datos basada en sondas: Descubrimiento y mitigación de comportamientos indeseables en el post-entrenamiento de LLM
<meta name=description content=Atribución por sondas descubre y mitiga comportamientos indeseables en LLM. Técnicas efectivas para mejorar la seguridad y confiabilidad de modelos de lenguaje.>